Extraction de motifs séquentiels dans les flots de données d'usage du Web

نویسندگان

  • Alice Marascu
  • Florent Masseglia
چکیده

Résumé. Ces dernières années, de nouvelles contraintes sont apparues pour les techniques de fouille de données. Ces contraintes sont typiques d’un nouveau genre de données : les “data streams”. Dans un processus de fouille appliqué sur un data stream, l’utilisation de la mémoire est limitée, de nouveaux éléments sont générés en permanence et doivent être traités le plus rapidement possible, aucun opérateur bloquant ne peut être appliqué sur les données et celles-ci ne peuvent être observées qu’une seule fois. A l’heure actuelle, la majorité des travaux relatifs à l’extraction de motifs dans les data streams ne concernent pas les motifs temporels. Nous montrons dans cet article que cela est principalement dû au phénomène combinatoire qui est lié à l’extraction de motifs séquentiels. Nous proposons alors un algorithme basé sur l’alignement de séquences pour extraire les motifs séquentiels dans les data streams. Afin de respecter la contrainte d’une passe unique sur les données, une heuristique gloutonne est proposée pour segmenter les séquences. Nous montrons enfin que notre proposition est capable d’extraire des motifs pertinents avec un support très faible.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Bordure statistique pour la fouille incrémentale de données dans les Data Streams

Résumé. Récemment la communauté Extraction de Connaissances s’est intéressée à de nouveaux modèles où les données arrivent séquentiellement sous la forme d’un flot rapide et continu, i.e. les data streams. L’une des particularités importantes de ces flots est que seule une quantité d’information partielle est disponible au cours du temps. Ainsi après différentes mises à jour successives, il dev...

متن کامل

Extraction de motifs séquentiels. Problèmes et méthodes

SYNOPSIS. Dans un premier temps, le problème de l’extraction de motifs séquentiels peut sembler proche de celui de l’extraction de règles d’association. Ce rapprochement s’avère cependant très fragile en raison d’un élément clé qui est propre à l’extraction de motifs séquentiels : la temporalité. Cette notion permet à la fois de distinguer à l’intérieur des enregistrements un ordre d’apparition...

متن کامل

Échantillonnage pour l'extraction de motifs séquentiels : des basesde données statiques aux flots de données

Résumé. Depuis quelques années, la communauté fouille de données s’est intéressée à la problématique de l’extraction de motifs séquentiels à partir de grandes bases de données en considérant comme hypothèse que les données pouvaient être chargées en mémoire centrale. Cependant, cette hypothèse est mise en défaut lorsque les bases manipulées sont trop volumineuses. Dans cet article, nous étudion...

متن کامل

Extraction de motifs séquentiels contextuels

Résumé. Les motifs séquentiels traditionnels ne tiennent généralement pas compte des informations contextuelles fréquemment associées aux données séquentielles. Dans le cas des séquences d’achats de clients dans un magasin, l’extraction classique de motifs se focalise sur les achats des clients sans considérer leur catégorie socio-professionnelle, leur sexe, leur âge. Or, en considérant le fait...

متن کامل

Des séquences aux tendances

RÉSUMÉ. Les données temporelles peuvent être traitées de nombreuses façons afin d’en extraire des connaissances. La découverte de motifs séquentiels met en évidence des sous-séquences fréquentes contenues dans des séquences d’enregistrements annotés temporellement. L’analyse des accès à un site web permet par exemple de découvrir que “5% des utilisateurs accèdent à la page register.php puis à l...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006